平衡数据共享和数据保护:以基因组数据为例
2022年5月18日,Nature Medicine杂志发表了一篇评论文章,以基因组数据为例,探讨了数据共享和数据保护的平衡问题。主要内容整理如下。
随着可用的基因组数据的增加和挖掘数据的新技术的出现,平衡数据共享和数据保护的需求变得更具挑战性。不同的学科必须走到一起,找到新的解决方案。
基因组学在生物医学研究中发挥越来越重要的作用。基因组数据已被用于诊断、患者分层和筛查、确定新的靶点和开发个性化的治疗方法。共享基因组数据的意愿,以及维护这一原则的地区和全球倡议,在这一成功中发挥了至关重要的作用。最近在COVID-19大流行的早期阶段快速共享数据,使得疫苗和治疗方法的开发在创纪录的时间内完成。
基因组数据不仅在重要性方面,而且在数量上都以惊人的速度增长。据估计,在2020年,全世界有超过3000万人可以获得他们的基因组数据,每年有20至400亿字节的新数据产生。
平衡双重目标
鉴于现有的大量数据,研究界和监管机构面临的挑战是需要平衡双重目标:既要让研究人员获得数据,同时又要保护研究参与者和患者的隐私,这是一项远非简单的任务。
研究确实表明,对隐私和数据可能被滥用的担忧,是阻碍公众参与基因组研究的主要因素之一。这些担忧影响了所收集数据的多样性,限制了全球基因组研究的效益。围绕数据安全的担忧并非毫无根据,因为基因组数据可能会暴露敏感信息。另一个担忧是,如果没有适当的保护,数据最终可能被用于不符合参与者首先提供的同意的应用。
技术保障措施
为了避免重新识别问题,人们已经提出了一些技术保障措施,包括数据匿名化、去识别化和数据聚合。然而,要使数据真正匿名是很困难的。在一项概念验证研究中,分析个人层面数据的研究人员能够通过推断Y染色体上的短串联重复序列来重新识别一些研究参与者的身份。来自全基因组关联研究的汇总统计数据也被发现不能完全避免隐私入侵。
虽然这些代表了罕见的例子,但我们有理由相信,基因数据隐私问题只会变得更加复杂。我们都与亲属共享我们的部分DNA,而且越多的人对他们的DNA进行测序,作为研究的一部分或作为直接面向消费者的基因组测试普及的结果。更大的基因组数据集的可用性,加上人工智能越来越强大的应用,有可能加剧现有的脆弱性并带来新的社会后果。现在被认为是”安全”的东西在未来可能就不安全了。
不过随着计算方法变得更加复杂,有可能利用新兴技术来提出更好的保护基因组数据的方法。最近提出的从信息学和经济学领域借用的解决方案包括加密方法,如同态加密,它允许在不需要解密基因组数据的情况下计算统计数据。其他解决方案包括对数据访问的控制。例如,英国国家卫生局最近宣布,它正在向”可信的研究环境”模式过渡,全世界受信任的研究人员可以在一个特设的虚拟环境中访问和处理数据,而无需下载数据。全球基因组学与健康联盟也采用了类似的概念。
监管问题
基因组研究的不断发展也给批准和监督收集和使用基因信息的研究的监管和审查机构带来了新的挑战。在大多数国家,此类研究由审查机构批准,如机构审查委员会或研究伦理委员会。这些机构负责对研究的伦理监督,是多学科的团体,通常没有规定要加入特定的专业知识,如数据安全方面。
尽管大型基因组学联盟越来越多地拥有从事数据保护的整个团队,并拥有独立的数据访问委员会,但最近的报告显示,机构审查委员会往往没有处理大数据的专门技术,如计算科学、人工智能、数据伦理和隐私。缺乏专业知识是一把双刃剑:一方面,这可能导致忽视数据保护的潜在威胁和漏洞;另一方面,缺乏专家意见可能意味着要求进行不合理的修改,甚至由于认为有数据安全威胁而不批准项目。这两种情况都阻碍了科学的发展。
关于未来
现在是开始思考如何最好地处理基因组研究中新出现和未来的数据安全和隐私问题的时候了。尽管解决方案可能不是一个放之四海而皆准的方法,但关键是要让不同的专家参与到这个过程中来,他们可能来自不同的背景,如信息学、伦理学和法律,以及让患者和公众参与这些讨论。
参考资料
Walking the tightrope between data sharing and data protection. Nat Med 28, 873 (2022). https://doi.org/10.1038/s41591-022-01852-w
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【隐私计算与数据共享】
●Science China|用增强的联邦学习应对药物发现数据小和偏的困境
●Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例
●AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例